首页> 外文OA文献 >Distributed Deep Reinforcement Learning: Learn how to play Atari games in 21 minutes
【2h】

Distributed Deep Reinforcement Learning: Learn how to play Atari games in 21 minutes

机译:分布式深度强化学习:学习如何玩atari游戏   在21分钟

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

We present a study in Distributed Deep Reinforcement Learning (DDRL) focusedon scalability of a state-of-the-art Deep Reinforcement Learning algorithmknown as Batch Asynchronous Advantage ActorCritic (BA3C). We show that usingthe Adam optimization algorithm with a batch size of up to 2048 is a viablechoice for carrying out large scale machine learning computations. This,combined with careful reexamination of the optimizer's hyperparameters, usingsynchronous training on the node level (while keeping the local, single nodepart of the algorithm asynchronous) and minimizing the memory footprint of themodel, allowed us to achieve linear scaling for up to 64 CPU nodes. Thiscorresponds to a training time of 21 minutes on 768 CPU cores, as opposed to 10hours when using a single node with 24 cores achieved by a baseline single-nodeimplementation.
机译:我们目前在分布式深度强化学习(DDRL)中进行一项研究,重点研究一种称为批处理异步优势ActorCritic(BA3C)的最新深度强化学习算法的可扩展性。我们表明,使用亚当优化算法(批处理量最大为2048)是进行大规模机器学习计算的可行选择。结合仔细重新检查优化器的超参数,在节点级别使用同步训练(同时使算法的本地,单个节点部分保持异步)并最小化模型的内存占用,可以使我们实现多达64个CPU节点的线性扩展。这对应于768个CPU内核的21分钟的培训时间,而使用一个具有24个内核的单节点通过基线单节点实现实现的培训时间为10小时。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号